标签【Q learning】 - 码上欢乐

接下来我们回顾一下动态规划算法(DP)和蒙特卡罗方法(MC)的特点，对于动态规划算法有如下特性：需要环境模型，即状态转移概率\(P_{sa}\) 状态值函数的估计是自举的(bootstr ...